学术探论 | 曾毅平、李高翔:侨批数据库建设:进展与优化
【提 要】 侨批数据库的建设对侨批文献的长久储存、广泛传播与公平利用具有重要意义。现已建成的汕头大学的侨批数据库及中山大学的潮汕侨批数据库,具有一定的存储规模且能提供基本的检索服务,对侨批文献传承、研究和开发利用,具有开创之功。由于现有数据库系文本图像储存,深度研究和利用受到较大限制,尚难充分满足学术界和社会应有需要。侨批数据库的建设和完善除扩大容量外,当务之急是进行语言信息化处理,为数据挖掘、开发利用创造条件。
【关键词】 侨批 数据库 数字化
一、引言
侨批,是海外华侨华人通过“水客”向国内带送的书信和汇款的合称,含国外“来批”和国内眷属“回批”,是“银信合一”的“两地书”。侨批主要集中在19世纪上半叶至20世纪70年代的广东、福建、海南等地,其中以潮汕地区和闽南地区最多。寄批地多是东南亚各国,还有少数来自美洲和大洋洲。侨批文献多是以家庭或家族为单位长期不断地连续书写,内容包罗万象,除了家庭、家族事务外,还广泛涉及迁出地和侨居地的政治、经济、法律、文化、交通、社会生活乃至军事战争、国际局势等,信息丰富,记载真实可靠,是对19世纪至20世纪中后期150年间社会历史变革的民间记录,是典籍文献的有力佐证,对于研究社会史、华侨史、经济史、金融史、邮政史、国际移民史、国际贸易史等具有不可替代的史料价值。2013年6月,由粤闽两省联袂申请,“侨批档案——海外华侨银信”被联合国教科文组织世界记忆工程国际咨询委员会确认,纳入《世界记忆名录》。
二、数据库建设意义
习近平总书记2022年10月13日在考察汕头侨批文物馆时指出:“‘侨批’记载了老一辈海外侨胞艰难的创业史和浓厚的家国情怀,是中华民族讲信誉、守承诺的重要体现”。习总书记嘱托,要保护好这些“侨批”文物,加强研究。(新华社第一工作室出品“近镜头”:《一纸“侨批”赤子情》,新华网官方帐号2022-07-21 12:05,网址:ttps://baijiahao.baidu.com/s?id=1738933829738038913&wfr=spider&for=pc)侨批是珍贵的“世界记忆遗产”,价值非凡。实现侨批文献的长久储存、广泛传播与方便利用是一项基础性工作。目前,侨批实物分藏于不同的档案馆、文物馆、博物馆、图书馆、民间收藏者或者侨属手中,近年来虽有集成影印出版,但数量有限,利用不便。由于文献实体历史久远,纸本侨批在受潮或搬迁等外力影响下,即便完整留存,也变得脆弱而再难多次翻阅;更多的侨批则已然破损,原始信息严重缺失或批信与批封难以匹配,这对侨批文献的储存、传播及利用均构成极大挑战。因此,侨批文献档案的数字化处理、大型侨批数据库的建设势在必行。
(一)实现分散侨批资源的整合与纸质侨批的保护
数据库建设可以将各收藏单位的侨批文物通过网络汇集,进而依据关联性进行系统分类与整合,打破侨批文献混乱、割裂的呈现方式,使所有侨批成为一个大数据库,实现资源的共建共享。同时,侨批资源的数字化呈现可以消除纸质文献反复查阅所带来的磨损,减少使用损毁造成的文献信息灭失,真正实现侨批的大规模、长期、再生性保护。
(二)实现侨批文献的初步整理及规范
任何纸质文献的数字化建设都有一套根据其自身特点制定的元数据标准规范及著录规则,根据标准规范对文献进行数字化处理就意味着需要专业人员对原始文献进行初次加工。与普通书信相比,侨批文献的独特性质使其具有鲜明的个性信息特征,比如批款、批局、批路等,又因其书写形式的多样化、不规范,导致侨批上的日期、地名的称名标准与方式存在极大差异,还有因为历史原因,侨批上款项内容多样,出现了封款、信款、暗款、实付款等,货币种类也多种多样,另外还有封、信不匹配,伪造侨批的情况……侨批文献数字化过程就是对侨批文献进行初步筛选、考证、匹配、信息提取、信息标引的过程,数据库中呈现的信息较之于原始信息更为可信、规范。
(三)助力侨批文献的广泛传播与深入研究
成规模、标准化的侨批数据库才能实现更大范围的信息共享,助力侨批文献所承载的社会及文化内涵突破时空限制得以传播。数据库便捷的检索方式更有助于提高侨批利用效率,其数据化及文本挖掘条件有助于侨批的深化研究。
三、现有数据库建设成果与存在的问题
(一)现有数据库介绍
国内现已建成的有较大影响的侨批数据库有汕头大学图书馆“侨批数据库”和汕头市潮汕历史文化研究中心与中山大学历史人类学研究中心共建的“潮汕侨批数据库”。
1.“侨批数据库”
汕头大学是侨批数据库建设的先行者。早在2010年,该校申请到CADAL(大学数字图书馆国际合作计划)立项资助及科研立项,随后数年,该校图书馆开展了“侨批元数据规范及著录规则研究”、侨批数字化扫描、元数据著录模板设计、元数据著录等一系列工作。
目前“侨批数据库”共收录侨批元数据及相应的 600dpi高清图像档7.9万条,主要来自汕头大学图书馆、潮汕历史文化研究中心、澄海侨批收藏家邹金盛先生的藏品,收集侨批资讯1108条,侨批故事571条,视频资源121条,学术资源705条,侨批赏析17期,这些均是数据库的内容增值模块,包括报纸上有关侨批的最新报道,侨批业、侨批从业人员的故事和批信上的故事,有关侨批的网络视频,侨批相关研究专著、硕博论文、期刊论文、会议论文及侨批币种、印章等相关知识的介绍。数据库内容丰富多彩,为侨批欣赏及研究提供了便利条件。
“侨批数据库” 网址http:∥app.lib.stu.edu.cn/qiaopi/(汕头大学图书馆的侨批数据库只在内部使用,共享时间待定),网页支持对元数据进行题名、寄批人、寄批地、收批人、收批地、写批年、批局、批 (封)款等信息的粗略检索。精确检索一种方法是运用“缩小范围”功能,对初次检索结果进行二次筛选;另一种方法是利用多个关键词进行“高级检索”,这都有助于快速锁定检索目标。
检索得到的侨批详细信息包括典藏主标识、正题名、寄批地、寄批人、收批地、收批人、写批日期、封款、实付款、批局、列字编号、附注、访问权限、资源类型、资源识别符、收藏单位、数字化日期、格式等元数据信息及侨批封面、封底、内信的扫描图像。侨批属私人书信,部分作为历史文献,已成为社会公共资源,但也有相当部分仍涉及个人及家族隐私,其共享、利用及研究的相关问题尚未有效解决。目前,侨批的原件信息仅在汕头大学图书馆内部开放,校外的用户只能看到简单的元数据信息和若干内容增值板块,不能打开侨批高清放大原图。
2.“潮汕侨批数据库”
“ 潮汕侨批数据库”是由汕头市潮汕历史文化研究中心与中山大学历史人类学研究中心共同研制开发的侨批文献查询统计系统,2018年正式启用。它包含侨批存储、查询、统计三大功能,拥有PC和手机两大端口,同时开辟了用户文献自传服务,使数据库信息来源更加多元。据统计,截止2021年12月13日,该数据库收录侨批数据信息3.8万条,是 “潮汕文献数据库”的第一个子库。
潮汕侨批数据库的网址https://qiaopisjk.sysu.edu.cn/,主体架构及各部分功能如图1,记录的侨批元数据包括标题、收藏序号、寄批地、寄批国家、寄批地区、寄批人、收批地、收批县(区)、收批镇(乡)、收批村、收批人、批面日期、国历日期、回批日期、币种、封款、实付款、批局、列字编号、有无内信、附注、收藏地、录入人、录入时间、录入人手机、录入人邮箱、相关图片等27项,这同时也是“上传文献”时要键入的信息。用户自传侨批文献有利于收集零散侨批,是一项群策群力共建共享的好举措,可惜检索发现,该板块尚未完全实现其功能。
图1 潮汕侨批数据库主体架构及功能
该数据库具有普通和高级两种检索方式,具体如图2所示。两种检索方式均可在首次检索后进一步限定检索范围完成更为精确的二次检索,但两种检索首次检索字段的设置存在出入,共有字段是寄批国家、收批地、收批人和批局,普通检索另有关键字、寄批人、收藏地和收藏编号,高级检索另有寄批地、收批县(区)、收批镇(乡)和收批村,说明二者检索的侧重点有所区别。
普通检索虽不具有多字段并置检索的功能,但却能对侨批信息进行复杂统计,这是该系统未在高级检索中设置的项目。在检索结果页面点击“统计信息”按钮设置统计字段,它包含了除“相关图片”之外的26项元数据,选定后系统会展示两张统计图表,一张扇形图,一张条形图,比如检索寄批国家泰国后,将统计字段设置为“寄批地”,则显示了该数据库中从泰国寄出的侨批分别寄自曼谷、清迈等15个不同的地区,两幅图分别用不同的颜色标示了不同地区的寄批数量及所占比例;若是只想考量具体几个地区的数据,可点击图表上方不需要统计的地区名称,将其统计数据从总体数据中去除,两张图表中显示的便只有所需数据了。根据不同的统计字段,这些图表基本可以直观明确地展示该字段下侨批的分布数据,但也仅是寄批地、寄批国家、寄批地区、收批地、收批县(区)、收批镇(乡)、收批村、国历日期、币种、封款、实付款、批局、有无内信、附注、录入人等15项的图表信息具有统计意义,其他11项因每个分类标准下的样本数量极少,不具有统计观察、对比的意义,甚至并未展示可靠的图表,因此可考虑删去此部分以优化系统。
地理查询分析主要以批局名称为搜索字段,结果按侨批的寄批国和收批县分别统计展示,各有一张扇形图,一张条形图,跟“侨批检索及统计分析”中图表信息的筛选方式一样,可以删除不需要的统计信息,只保留目标信息,使统计数据直观干净。搜索字段不输入任何批局信息直接搜索得到整个数据库中侨批寄批国及收批县的分布情况,从图中可以看出该数据库中侨批的收批县共有22个;因寄批国统计中还有183封寄自中国,可以推测所录侨批中既有来批又有回批,但有些寄自同一国家的侨批因批封上所写音译汉字不同而统计为不同国家,比如泰国和暹罗、印度尼西亚和印尼等。寄批国统计中还混入了一个寄批人信息“郑焕秋”和一封侨批名称“马来西亚王乌戈寄广东潮安蔡清月侨批”,可见数据库文献整理还有待规范和完善。
3.其他侨批数字资源
2012年,泉州市档案馆完成馆藏侨批实体2961封5530件档案的数字化转换工作,基本建立“侨批档案”专题数据库。此外,还有一些有关侨批宣传、侨批研究的网页数字资源,包括潮汕历史文化研究中心和汕头大学长江新闻与传播学院共建的“在线侨批文物馆”(详情可见网址https://www.teochewletters.org/)、福建档案馆建设的“百年跨国两地书——福建侨批网上展厅”(详情可见网址http://www.fj-archives.org.cn/wszt/zhanting23/qianyan124/list.html)和“世界记忆项目福建学术中心——侨批相关”(详情可见网址http://www.fj-archives.org.cn/qpzt/qpcg/),但这些数字资源均为侨批图片及文字介绍,且数据更新及维护较为迟缓,有待进一步开发及利用。近年来,“侨批”数据库建设相关研究逐渐深入,如国家社科基金重大项目“中国侨汇档案整理与研究(1915—1992)”(19ZDA209)、广东省人文社会科学重点研究基地2016年招标课题“基于WEB3.0的客家侨批数字文化资源分享平台构建研究”(16KYKT13)等,均涉及侨批数据库建设相关内容,李建伟(2018)以梅州客家侨批为例构建了侨批保护的“文化云”构架,具体阐释了数据库各部分的建设构想,期待相关研究成果能够落地成型并投入使用。
(二)存在的问题
1.侨批原件收录及展示不足
侨批属于家书性质,涉及许多隐私问题,法律层面上应被严格保护,所以潮汕侨批数据库中只展示了极少数的批封原件;侨批数据库中虽有批封、批信的高清扫描件,但也只限于汕头大学图书馆内部研究使用,并不对外公开,产生了侨批研究与隐私保护两者难以兼顾的问题。
2.数据库功能较为单一
现阶段的侨批数据库主要是对侨批原件扫描件及封信上析取的元数据的收录,重点是对侨批文献的数字化储存及检索。“潮汕侨批数据库”中有一些简单的元数据信息统计,实现了部分信息的可视化;但更深层次的文本信息挖掘处理还无法进行,数据库功能类型较为单一,目前还难以满足深入研究的需要。
3.系统维护、更新、优化不足
“潮汕侨批数据库”存在一些“操作指南”介绍与数据库实际功能应用不相匹配的情况,比如指南介绍可以在“地理查询分析中”根据批局信息在地图空间上查看该批局经手的侨批路径图,将寄批地与收批地串联起来,还能查看路径图中侨批数量的统计信息(见潮汕侨批数据库官网,网址:https://qiaopisjk.sysu.edu.cn/help/readme),但据有关人员介绍,实际上当时当地因侨居国政策以及双边关系影响,寄送路线难免复杂多变。侨批往往辗转多地,甚至要通过秘密渠道才能送到侨眷手中。现阶段受条件所限,还难以充分考证,数据库要完成侨批路径图的绘制困难很大(中山大学历史人类学研究中心工作人员的解答)。在此种情况下,操作指南中宜删除有关功能介绍。此外,“潮汕侨批数据库”中还有一些方面可加以优化、调整,比如删去一些价值不大的图表数据、合并同类功能项目、优化检索结果页与详情页跳转功能,以免查看详情后无法返回到检索结果界面,不得不重新检索。
四、数据库优化措施
(一)提高数据化水平,拓展文本挖掘功能
一般来说,文献数据库具有数字化、数据化及文本挖掘三种功能:数字化是指将文献物质形态转化为电子信息形态的过程,以便文献的储存、传播与检索,现阶段的侨批数据库基本上就是实现此类功能;数据化是指将电子文献元数据通过规范性标注、提取后的量化展示,汕头大学图书馆完成的《侨批元数据著录规则》是这一功能实现的前提和基础,“潮汕侨批数据库”展示了部分量化成果。数据库最重要的功能是为用户提供研究环境并助其发现研究增长点,所以数据化基础上的文本信息深入挖掘以及分析工具的开发至为重要。目前,这方面还十分欠缺,亟需加强研究。
1.文献信息的数据化、可视化呈现
数据库文献的量化呈现,是复杂检索结果的高质量处理方式,也是评价数据库功效的重要参数。量化呈现必然离不开可视化,即给信息数据以“形象”。将文献信息提取后以简洁明了的视觉形式直观呈现,具体方式包括图形、图表、图像、动画、关系线、颜色区分、位置区分等。侨批文献数据库的建设应在检索内容、过程、结果及内容间和结果间的相互关系等多个角度逐步完成量化及可视化呈现,以多模态形式提高用户的感知度,助其快速而直观地获取所需信息。
2.加强文献信息的关联性处理
数据库汇聚的侨批文献,记录了当时当地政治、经济、文化的诸多史实,若数据录入过于简省,文献背后蕴涵的事实、规律、逻辑关系往往就难以发现。侨批中的人、事、时、地、物之间存在着千丝万缕的联系,洞察其关联性,需要作分类整合,建构多触角的知识网络。这方面上海市图书馆推出的家谱知识服务平台的技术理念值得借鉴。基于关联数据技术,重组海量侨批数字资源,从多角度挖掘事实,建立数据间的联系十分必要。侨批数据库建设若能充分体现用户需求导向原则,提供精准、系统的交叉导航方式,必能更好地发挥其基础数据库作用。
3.开发文本分析工具
借鉴历史文献学在“数字人文”概念下所进行的数据库文本挖掘研究,积极探索在侨批数据库中开发更多有助于研究者的文本分析工具。首先是侨批批信内容的转录与注释服务,这便涉及文字识别、转录原则、标写规范、考证依据、释义基础等方面,需要相关专家进行专业处理之后才能在数据库中提供检索服务。其次,开发并提供有助于侨批研究的统计分析工具,能够完成对侨批批信内容的文本分析,包括词频分析、内容主题分析、共现分析、关联分析、时序空间分析、社会关系分析等,使语料库成为侨批研究的得力助手。
4.多部门支持,多领域专家参与
通过以上论述可以发现,大规模侨批数据库的建设、开发及利用需要社会各界多部门的鼎力支持、多领域专家的通力合作。首先是在侨乡各级政府的支持下,各级侨批收藏单位以及民间收藏单位的共享共建,这是大规模侨批数据库建设的前提与基础,这里亟待解决的是侨批的共享价值与部分侨批隐私性的矛盾问题,需要法学界专家积极研讨,建立健全相应法规。其次,侨批数据库的深度开发与利用不只是一个或几个领域的参与便可以完成的,需要联合计算机专家、书法家、历史学家、语言学家、民俗学家、经济学家等多领域专家共同参与,保证数据库侨批资源的真实性、可靠性及可用性。
(二)扩大数据库规模,建设中英双语数据库
侨批文献资源主要集中在广东潮汕地区和福建闽南地区,现阶段两地的侨批文献开发利用尚未打通。为了汇集大宗侨批文献,展示侨批整体面貌,宜加强合作,建立通用的“侨批元数据著录规范集”,最大程度兼容闽粤琼的侨批数字化资源,减少异构性,实现资源的共建共享,避免重复建设。同时,重视民间侨批文献的征集,通过广泛宣传,转变民间收藏者观念,鼓励其以捐赠、付费等多种方式提供侨批文献,逐步扩大数据库规模。侨批文献是世界记忆遗产,从其产生、传播到现在的利用、研究均具有国际性特征,因而数据库不宜拘泥于一种语言,应进一步建设汉英双语数据库,使侨批通过网络走向世界,让世界利用网络熟悉侨批,真正推动其世界性传播与共享,并为国际学者提供方便。
(三)利用新媒体扩大侨批文献的影响力及应用面
侨批数据库应让大众广泛知悉并使用才能可持续发展,可利用新媒体手段,如微信公众号、各类视频号讲述侨批故事、宣传侨批精神,增加侨批文献的社会受众;开发、推广数据库APP、微信小程序等移动客户端,为自愿提供或有能力释读侨批文献的社会各界人士提供参与共建数据库的平台,这一方面可扩大侨批文献的影响力及应用面,另一方面有助于缓解海量侨批文献释读、录入、校对在人力、财力、物力和时间上的压力,真正实现共建共享。
五、结语
侨批是人类社会共同的记忆遗产,其学术和应用价值不应低估,为使其得到有效的存储、传播与利用,数据库的系统建设、完善、开发和利用应得到足够重视。现阶段侨批数据库数量较少且规模有限、侨批文献归属不一、数据库开发工作量大且多停留在数字化阶段,因此需要我们联合多部门、多领域,利用新媒体技术更广泛地发动社会各界的力量,进一步扩大数据库共建共享规模,提升数据库数据化及深度文本挖掘能力,使侨批数据库真正成为可供有效利用的数字资源。
参考文献
[1] 端木三,2015.“中国音系数据库”的构建及用途[M]//甘于恩.南方语言学:第八辑.广州:暨南大学出版社.
[2] 国家图书馆研究院,2016.上海图书馆推出基于关联开放数据的数字人文服务[J].国家图书馆学刊(02):10.
[3] 金文坚,2015. 汕头大学图书馆侨批数据库[J]. 华侨华人文献学刊(02):227-236.
[4] 李建伟,2018. 文化云模式下的侨批档案保护——以梅州客家侨批为例[J]. 图书馆论坛(04):147-152.
[5] 罗铿,2019. 数字人文背景下侨批档案资源的开发模式研究[J]. 档案学研究(05):83-87.
[6] 搜狐网.文献数字化 侨批“上云端”[EB/OL]. https://www.sohu.com/a/231615730_161794,2018-5-15/2022-12-10.
[7] 王炜中,2007. 潮汕侨批[M]. 广州:广东人民出版社.
[8] 维克托·迈尔·舍恩伯格,2013. 大数据时代: 生活、工作与思维的大变革[M]. 杭州:浙江人民出版社.
[9] 新华社第一工作室.一纸“侨批”赤子情[EB/OL].https://baijiahao.baidu.com/s?id=1738933829738038913&wfr=spider&for=pc,2022-07-21/ 2023-01-18.
[10] 杨明华,刘晓莉,金文坚,杨剑,2013. 侨批元数据著录规则研究[J]. 图书馆论坛(04):82-85+76.
[11] 杨剑,杨明华,金文坚,刘晓莉,2013. 侨批元数据方案的设计和实现[J]. 图书情报工作(03):100-104.
[12] 赵思渊,2016. 地方历史文献的数字化、数据化与文本挖掘:以《中国地方历史文献数据库》为例[J]. 清史研究(04):26-35.
[13] 张惠萍,2015. 侨批文献数字化建设研究[J]. 盐城师范学院学报(人文社会科学版)(06):119-121.
[14] 周宁,刘玮,赵丹,2004. 信息提供的可视化研究[J]. 情报科学(03):257-260+275.
(本文系国家社科基金重点项目“侨批词汇研究”(20AZD127)阶段性成果,作者单位:暨南大学华文学院。原载《南方语言学》21辑,世界图书出版公司,2023年6月第一版)
(《南方语言学》21辑书影,世界图书出版公司)
往期回顾
乡音乡情(音频)| 侨批的故事——给母亲大人的银信(新会罗坑话)
方言与世遗(音频)|邓晓华:跨越山海的家书——银信(广州话)
行走田野杂记 | 黄伟亮:《江门市海上丝绸之路方言与文化调查研究》后记
图文 | 网络(侵删)
本期编辑 | 文贞敏
本期审读 | 文贞敏
责任编辑 | 甘于恩
版权归语言资源快讯所有,转载请注明出处投稿信箱:jnufyzx@163.com
((封面配图:侨批,图源:网络,侵删))
做语言资源保护公众号不容易,每天更新公众号更不容易,而每天提供新语料尤其不容易。很多读者还没养成打赏习惯,提供每个月打赏一元钱,积少成多,我们的事业就有希望。谢谢各位!